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摘要 ” 随 着 高 通 量 测序 技术 快速 发 展 ，MeRIP-seq (methylated RNA immunoprecipitation sequencing) 测序 技术 开启 了 RNA 3 
观 遗 传 学 研究 新 局 面 ， 能 够 在 全 基因 组 范围 内 描述 RNA 甲 基 化 ， 从 MeRIP-seq 高 通 量 数 据 中 挖 气 RNA 甲 基 化 模式 ， 有 助 
于 揭示 mRNA 甲 基 化 在 调控 基因 表达 、 剪 切 等 方面 所 发 挥 的 潜在 功能 ， 有 效 指导 癌症 的 干预 治疗 .本 文 从 MeRIP-seq 测序 
原理 出 发 ， 较 全 面 地 综述 MeRIP-seq 数据 处 理 和 分 析 方 法 研究 现状 ， 并 对 其 所 面临 的 计算 问题 进行 讨论 和 展望 . 
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关键 词 MeRIP-seq 测序 ， 数 据 处 理 与 分 析 ，RNA 甲 基 化 ， 表 观 遗 传 
学 科 分 类 号 QS. Q6, Q7 DOI: 10.16476/j.pibb.2015.0078 


表 观 遗传 学 ， 包 括 组 重 白 共 价 修饰 (covalent ^ immunoprecipitation sequencing) 高 通 量 测序 技术 的 
histone modification, DNA 甲 基 化 修饰 (DNA 出 现 ， 能 够 高 效 精确 检测 全 转录 组 不 同 的 RNA 甲 
methylation), RNA 甲 基 化 修饰 RNA methylation), HM AET RNA 甲 基 化 研究 基础 ， 如何 有 效 处 
基因 组 印记 (genomic imprinting)、 基 因 沉 默 (gene 理 和 分 析 MeRIP-seq 技术 生成 的 海量 数据 ， 是 成 功 
silencing), RNA 编辑 (RNA editing) 及 非 编 码 RNA ”发 现 RNA 甲 基 化 机 理 及 功能 的 关键 . 
(noncoding RNA) 等 ， 是 指 在 核 苷 酸 序 列 不 发 生 改 本 文 较 全 面 介 绍 MeRIP-seq 测序 原理 、 数 据 处 
变 的 情况 下 ， 生 物 表 型 或 基因 表达 发 生 了 稳定 的 可  ” 理 及 分 析 基 本 流程 、 关 键 方法 、 现 有 算法 软件 ， 重 
LEAR LN. RNA 甲 基 化 作为 表 观 遗传 学 研究 的 重 。 点 讨论 MeRIP-seq 数据 处 理 和 分 析 过 程 中 所 面临 的 
要 内 容 之 一 ， 是 指 发 生 在 RNA 分 子 上 不 同位 置 的 ”挑战 . 

1 基 化 修饰 现象 ，6- HSE WR UR "T 

(N*amethyladenosine, mA) A) 5. hd 1 MeRIP-seq 技术 测序 原理 

(Csmethylcytidine，msC) 是 真 核 生物 中 最 常见 的 两 MeRIP-seq 技术 将 甲 基 化 DNA f Jie FE UT HE 

^ RNA 转录 后 修饰 .RNA 甲 基 化 在 调控 基因 表 ^^ (methylated DNA immunoprecipitation, MeDIP) 4% 
达 、 剪 接 、RNA 编辑 、RNA 稳定 性 、 控 制 mRNA A, RNA 结合 蛋白 免疫 共 沉 淀 (RNA 

寿命 和 降解 等 方面 可 能 扮演 重要 角色 . 相对 于 ”immunoprecipitation，RIP) 技 术 和 RNA 测序 (RNA 

DNA 甲 基 化 ，RNA 甲 基 化 更 加 复杂 、 种 类 繁多 、 sequencing, RNA-seq) 技术 中 组 合 起 来 ， 高 精度 地 

普遍 存在 于 各 种 高 级 生物 中 4， 由 于 缺乏 有 效 检 ，” 检测 全 基因 组 (或 全 转录 组 ) 范 围 内 的 RNA 甲 基 

测 手 段 ， 相 关 研 究 多 局 限于 非 编码 tRNA M rRNA, 

或 小 部 分 编码 转录 片段 上 ， 且 多 数 RNA 甲 基 化 功 

能 未 知 * 国家 自然 科学 基金 资助 项 目 (91430111, 61473232, 61401370, 

高 通 量 测序 技术 的 发 展 四 及 一 些 RNA DU 
甲 基 化 功能 的 发 现 cm， 人 们 开始 关注 RNA pM 
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化 .MeRIP-seq 技术 采用 免疫 共 沉 尝 方 法 ， 即 甲 基 
化 RNA 特异 性 抗体 与 被 随机 打 断 的 RNA 片段 进 
行 孵 育 ， 抓 取 有 甲 基 化 修饰 的 片段 进行 测序 ， 同 时 


Yo AAAAAAAAA 


需要 平行 测序 一 个 对 照 (control) 样 本 ， 对 照样 本 用 

于 消除 抓 取 带 有 甲 基 化 片段 过 程 中 的 背景 .然后 将 ewe 

免疫 共 沉淀 (P) 样 本 和 对 照样 本 中 的 序列 片段 对 比 I a aas 

(或 定位 ) 到 参考 基因 组 / 转录 组 上 ， 检 测 RNA 甲 基 FT 

化 位 点 ， 对 照样 本 测量 对 应 RNA 的 表达 量 ， 本 质 È E 

上 是 RNA-seq 数据 ， 图 1 为 MeRIP-seq 技术 检测 gag en eame LT a 输入 的 

mA RNA 甲 基 化 过 程 示意 图 . 到 的 全 样本 — 12 EY ，， ,Control 样本 
MeDIP-seq 和 ChIP-seq 测序 技术 均 是 将 免疫 共 D» 净化 多 测序 E 

沉淀 与 测序 相 结 合 . MeRIP-se 主要 应 

Hee i 4 而 ema a TCAGAAAAGGCGC  CGAAAAGGCGCOC 

B PE An un TTCTAACTTGGA AAAGGCGCGCGT 

应 用 于 DNA 甲 基 化 研究 . MeRIP-seq 技术 要 求 必 


IP 样本 Control 样本 


须 有 对 照样 本 ， 而 MeDIP-seq 和 ChIP-seq 技术 对 
于 对 照样 本 没有 要 求 . 表 1 为 MeRIP-seq、 
MeDIP-seq 和 ChIP-seq 三 种 测序 技术 对 比 . 


Fig.1 The work flow of detecting m*A RNA methylation 
using MeRIP-seq technology 
图 1  MeRIP-seq 技术 检测 mA RNA 甲 基 化 过 程 


Table 1 Comparison of MeRIP-seq, MeDIP-seq, ChIP-seq sequencing technologies 
3E 1 MeRIP-seq. MeDIP-seq. ChIP-seq 三 种 测序 技术 对 比 


ChIP-seq MeDIP-seq MeRIP-seq 
INR IEEE 化学 信和 人 学 从 
分 子 DNA DNA RNA 
比 对 器 非 拼接 非 拼接 拼接 
Fi 蛋白 质 绑 定位 点 或 峰 CpG 岛 甲 基 化 位 点 或 峰 
量化 相对 量 (与 绝对 量 线性 相关 ) 相对 量 (与 绝对 量 线性 相关 ) 相对 量 ( 与 绝对 量 不 相关 ) 
差异 分 析 仅 需 要 免疫 沉淀 样本 仅 需 要 免疫 沉淀 样本 需要 免疫 沉淀 样本 和 对 照样 本 
模 体 双 链 双 链 链 特 异性 
REA TR Bi TORT IP 
读 段 标签 平移 和 control 样本 
定位 | 序列 延伸 va A 的 reads 数 泊 松 
处 理 流程 一 般 不 做 峰 检测 i EM 
代表 软件 MACS", CisGenomel?! Batman'9, MeQAM exomePeak!?, MeRIP-PF"! 


ME Los 大量 的 TRINA 序列 ， 因 此 需要 结合 不 同 的 方法 去 除 
2 MeRIP-seq 测序 文库 制备 和 测序 平台 数 其 中 的 rRNA， 对 于 真 核 生 物 而 言 ， 常 采用 Poly(T) 


据 输出 EBORE SÉ. Poly(A) 的 RNA 去 除 rRNA; 而 
本 小 节 将 针对 Ilumina/Solexa 测序 平台 ， 介 绍 WANE Poly(A) 尾 的 转录 本 序列 以 及 存在 部 分 降解 
MeRIP-seq 测序 文库 制备 及 测序 平台 数据 输出 ， EE RNAs. Teel ties e Dau A 
2.1 MeRIP-seq 测序 文库 制备 而 得 到 除 rRNA 外 的 全 部 RNA， 然 后 将 提取 出 的 
MeRIP-seq 测序 文库 制备 过 程 如 下 : 首先 从 样 RNA ENLITE. MeRIP-seq ERX i A P 


本 细胞 组 织 中 分 离 出 RNA， 考 虑 到 总 RNA 中 含有 饰 的 片段 QP 样本 ) 进 行 测序 时 ， 需 要 平行 对 一 个 对 
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照样 本 (Control 样本 ) 进 行 测序 ， 


其 人 PP 样本 和 


Control 样本 的 片段 选择 方法 主要 有 以 下 2 种 : 


a. 将 打 断 的 RNA 片段 分 成 两 份 ， 一 份 直 
备 Control 样本 的 cDNA XE, 3j 
抗体 与 被 打 断 的 RNA 进行 县 育 ， 抓 取 带 有 msA 修 


接 用 于 制 
份 采用 抗 mA 


饰 的 片段 ， 


S 


行 处 理 . 


b. 


于 制备 P 样本 的 cDNA 文库 . 


测序 得 到 的 结果 不 以 所 有 RNA 片段 为 背景 ， 称 这 
样 得 到 的 下 样本 和 Control 样本 是 非 成 对 的 
(unpair)， 在 进行 数据 处 理 时 需 先 对 Control Fi 


本 进 
份 相同 的 RNA 进行 打 断 ， 其 中 


133) 


取 两 


一 份 所 有 的 RNA 片段 都 进行 测序 ， 作 为 Control 


FOR. M 


样本 背景 为 


的 片段 进行 测序 作为 IP PEAS. REI 


BK 


] 抗 meA 抗体 抓 取 带 有 mtA 修饰 
于 测序 得 到 的 TP 
当前 测序 得 到 的 Control PEAS, BGK RE 


得 到 的 全 样本 和 Control 样本 是 成 对 的 (pair)， 可 
直接 用 于 数 ] 


jn Ab PE 


获取 测序 片段 后 (包括 IP 样本 测序 片段 和 


Control 样本 测序 片段 )， 
RNA 片段 合成 双 链 
进行 末端 修 
头 (adapter) 连 接 cDNA 片段 两 端 ， 从 
序 的 cDNA. 


et 


随机 引物 和 反 转 录 酶 从 
cDNA， 然 后， 对 合成 的 cDNA 
复 并 在 3' 端 加 “A” 使 用 特定 测序 接 
得 到 用 于 测 
通常 情况 下 ， 为 了 得 到 更 高 的 测序 效 


Z, MR 


电泳 切 胶 法 获取 一 定 长 度 的 cDNA, 


(a) 
MeRIP-seq 
测序 数据 
(Control 样本 ) 
读 段 定位 
MeRIP-seq 
测序 数据 
(IP 样本 ) 
(b) 
MeRIP-seq i MeRIP-seq 数 ， 
WE xo ! 据 处 理 基本 ， 
( T^ A) 4 流程 1 


j MeRIP-seq 数 ， 
， 据 处 理 基本 ， 
流程 


MeRIP-seq 


s 


=i 


2.2 


测序 . 


再 对 其 进行 PCR 4 


测序 时 ， 


Fé. 测序 仪 通过 
fas, AIME 


扩 增 ， 得 到 所 需 的 cDNA 文库 中 
测序 平台 数据 输出 
将 制备 好 的 测序 文库 放 入 测序 平台 的 各 通道 
(lane)， 通 过 桥 式 扩 增 ， 形 成 数 以 亿 计 的 筷 ， 开 始 
各 4 种 聚合 酶 加 入 到 单 分 子 阵 列 
中 ， 每 个 被 加 入 荧光 标记 的 核 背 释放 出 相对 应 的 区 


和 获 获 光标 记 核 音 酸 押 释 放 的 奖 光 


机 软件 而 


上 定 测 得 的 碱 基 及 顺序 ， 根 


据 测 序 顺 序 连 成 读 段 (read/fragment)， 输 出 以 
FASTQ 格式 记录 读 段 序列 及 测序 质量 分 数 . 


第 1 行 以 “@” 3 


在 FASTQ 文件 中 ， 每 4 行为 一 个 读 段 ， 其 中 
于 头 ， 后 面 是 reads HY ID 以 及 其 他 


信息 ， 第 2 行为 测序 得 到 的 read 的 碱 基 序列 ， 第 3 


TEAPA 


F 头 ， 跟 随 着 该 read 的 名 称 (一 般 与 @ 


iz 


éé » 


后 面 的 内 容 相 同 )， 但 有 时 可 以 省 略 ， +” 一 定 
不 能 省 ， 第 4 行 代 表 reads HE. 
3 MeRIP-seq 测序 数据 处 理 

MeRIP-seq 技术 主要 用 于 mRNA 甲 基 化 检测 ， 
其 测序 数据 处 理 主 要 包括 读 段 定位 、 峰 检测 (peak 
calling)、 差 异 甲 基 化 检测 及 剪接 异 构 体 层次 的 相关 
处 理 ， 图 2 为 MeRIP-seq 测序 数据 处 理 流程 . 


前 接 异 构 
体 层次 上 
的 峰 检测 


》 后 续 处 理 


其 他 高 层 


— 


Fig. 2 The process of treating the MeRIP-seq data 
2 MeRIP-seq 测序 数据 处 理 流 程 


(a) 单 样本 MeRIP-seq 测序 数据 处 理 . (b) 双 样 本 MeRIP-seq 数据 比较 分 析 流 程 . 


数据 分 析 


.894。 
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31 读 段 定 位 


获得 Control 及 IP 两 样本 测序 数据 后 ， 首 先 对 
读 段 数据 进行 预 处 理 (如 将 测序 质量 较 差 的 读 段 过 
滤 )， 然 后 将 两 个 样本 的 所 有 读 段 序列 映射 


(mapping) 定 位 到 参考 基因 组 上 ， 这 是 后 续 数据 处 


理 和 分 析 的 基 而 


目前 ，RNA 数据 的 读 段 定位 全 


法 主要 采用 以 下 三 种 技术 四 : 空位 种 子 索引 (spaced- 


seed indexing), Burrows-Wheeler 转换 (Burrows- 
Wheeler transform, BWT), Smith-Waterman 动态 


规划 四， 空位 种 子 索 引 算法 基本 原理 ， 将 读 段 切 成 
片段 ， 形 成 种 子 片段 ， 从 中 选取 一 部 分 作为 种 子 建 


RIL Wea A) 


查找 、 延 伸 等 方法 来 定位 读 段 . 


其 代表 软件 包括 MAQ, ZOOMP, RMAP 24, 


BWT 算法 基本 原理 : 通过 B-W 转换 对 参考 基因 组 


进行 一 次 有 规律 的 重新 排序 并 建立 索引 ， 然 后 利用 
查找 和 回溯 定位 等 方法 进行 读 段 定位 ， 在 查找 过 程 


中 ， 可 以 利用 碱 基 蔡 代 来 实现 允许 的 错 配 ， 其 代表 
软件 包括 Bowtie 7", BWA PI, SOAP2 中. 
Smith-Waterman 动态 规划 算法 基本 原理 : 利用 初 


始 条 件 和 迭代 关系 计算 两 条 序列 所 有 可 能 的 比 对 分 
值 ， 对 相同 位 点 加 分 ， 不 同位 点 减 分 .采用 空隙 惩 
罚 机 制 处 理 片段 中 存在 的 间 际 ， 并 将 结果 存放 于 一 
个 矩阵 中 ， 利 用 动态 规划 方法 回溯 寻找 最 优 比 对 结 
果 ， 其 代表 软件 有 BFAST?, SHRiMR®, 
MeRIP-seq 测序 数据 实际 上 是 一 种 RNA 读 段 


数据 ， 读 段 定位 8 


需要 进行 拼接 定位 ， 且 读 段 定位 


中 会 面临 跨越 两 个 外 显 子 结合 区 域 的 定位 问题 .为 


解决 此 问题 ， 人 


门 采 用 以 下 三 种 方法 进行 RNA 读 


BOEM: a. dE] 


已 知 剪接 点 的 比 对 定位 ， 该 方法 


BEDTools??, IGV" SAM 和 BAM 文件 常用 处 理 
软件 . 
3.2 ”上 峰 检测 算法 

卫 样本 中 甲 基 化 位 点 抓 取 的 读 段 较 多 ， 将 其 
映射 到 参考 基因 组 上 ， 会 在 甲 基 化 位 点 附近 形成 一 
个 读 段 富 集 区 (enrichment region) 或 者 一 个 “ 峰 
(peak)， 因 而 甲 基 化 富 集 点 检测 算法 称 之 为 峰 检 六 
(peak calling) 算 法 由 ， 峰 检测 过 程 中 ， 经 常 遇 到 两 
种 比较 特别 的 读 段 :一 种 为 同一 个 读 段 可 映射 到 基 
因 组 的 多 个 位 置 上 ， 称 之 为 “多 映射 读 段 
(multimapping reads)”; 另 一 种 为 一 些 完 全 相同 的 
读 段 ， 称 之 为 “复制 读 段 (duplicated reads)”， 该 类 
读 段 可 能 是 由 PCR 扩 增 引起 的 . 对 于 “多 映射 读 
段 ”， 常 采用 下 面 2 种 方法 处 理 : a， 在 不 同位 置 根 
据 周 围 区 域 情 况 按 比例 分 配 ; b. 完全 删除 这 种 读 
段 ， 这 是 最 简单 并 且 最 有 效 的 方法 四 ， 对 于 “复制 
BEBE", 采用 SAMToolsPSE TH. 
MeRIP-PF !9 和 exomePeak 中 是 目前 检测 
MeRIP-seq 数据 读 段 富 集 区 的 两 个 主要 工具 . 
MeRIP-PF 首先 将 IP 样本 数据 及 对 照样 本 数据 映射 
到 参考 基因 组 上 ， 并 把 参考 基因 组 分 割 成 25 bp 的 
固定 窗口 ， 通 过 比 对 该 窗口 上 IP 样本 和 Control FE 
本 的 读 段 (read) 数 目 ， 确 定 msA 甲 基 化 区 ,但 该 
MeRIP-PFWM 以 固定 窗口 分 割 参考 基因 组 ， 对 于 器 
窗口 的 “ 峰 ” 及 跨 外 显 子 的 “ 峰 ” 不 能 有 效 地 处 
理 ， 假 阳性 较 高 . exomePeak' 57H] Przyborowski™! 
和 Wilenski 荆 人 方法 比较 两 个 泊 松 分 布 的 均值 (或 
C-test)， 对 特定 基因 外 显 子 集合 进行 峰 检测 ， 可 检 
测 跨 越 外 显 子 连接 区 域 的 峰 ， 该 方法 可 有 效 解决 转 


= 


在 已 知 基 因 注 释 信息 基础 上 实现 ， 剪 接点 在 已 知 接 


合 区 域 数 据 库 中 可 检测 到 ， 此 类 方法 不 能 确定 新 的 
剪接 点 ， 代表 性 软件 工具 包括 SpliceSeq ??, 
SAMMate5，b， 从 头 拼接 比 对 定位 ， 此 方法 不 需 


已 知 的 注释 信息 ， 


软件 工具 包括 MapSplice™!, SpliceMapP?. c. 使 用 
注释 信息 进行 从 头 拼接 的 比 对 定位 ， 代 表 性 软件 工 
REFS TopHatP9, 
Bowtie 比 对 非 拼 接 的 读 段 ， 然 后 采用 Mag 组 装 已 


且 允 许 新 剪接 点 的 检测 ， 代 表 性 


STARP", TopHat 软件 首先 采用 


比 对 的 读 段 形成 序列 的 岛 ， 在 岛屿 序列 中 ，TopHat 


根据 之 前 未 映射 的 读 段 、 可 能 的 标准 供 体 以 及 接受 
位 点 来 确定 剪接 点 . 

读 段 定位 后 ， 通 常 采用 SAMS Bk BAM 文件 存 
fi. BAM 格式 是 对 SAM 文件 的 压缩 ， 可 以 将 


SAM 格式 压缩 到 接近 原来 的 2096. SAM Tools P9, 


录 丰 度 问 题 . 由 于 基因 剪接 异 构 体 的 多 样 性 ， 
exomePeak 算法 没有 考虑 转录 复杂 性 ， 所 涉及 的 诸 
如 平移 (shifting)、 延 伸 (extension)、 平滑 (smoothing)、 
检测 等 计算 操作 相对 直接 简单 .尽管 exomePeak 
算法 目前 存在 这 些 不 足 ， 但 该 算法 仍 可 以 较 好 地 检 
测 RNA 甲 基 化 位 点 ， 并 对 其 进行 注释 . 

33 ”差异 甲 基 化 检测 
基于 MeRIP-seq 数据 进行 差异 甲 基 化 检测 ， 有 
助 于 确定 2 种 实验 / 显 性 条 件 ( 如 正常 和 癌症 ) 下 的 
mRNA 表 观 遗传 调控 差异 . ChIP-Seq 数据 与 
MeRIP-seq 数据 的 差异 甲 基 化 检测 有 其 本 质 区 别 . 
在 ChIP-Seq 数据 中 ， 由 于 DNA 总 数 在 两 种 情况 下 
(加 刺激 、 未 加 刺激 ) 是 相同 的 ， 那 么 修饰 DNA 分 
子 的 百分比 与 其 数量 保持 相同 的 变化 趋势 ， 因 此 无 
论 使 用 相对 量 (百分比 ) 还 是 绝对 量 ， 其 差异 是 一 致 
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n 但 在 MeRIP-seq 数据 中 ， 由 于 mRNA 差异 表 
影响 ，MeRIP-seq 数据 的 背景 (如 mRNA 转录 丰 
有 可 能 同时 出 现 “ 过 甲 基 化 
(hypermethylation)” 和 “ 甲 基 化 RNA 总 量 下 降 ” 
情况 ， 如 图 3 Pras. 在 DNA 甲 基 化 中 ， 未 加 刺激 
的 情况 下 ，3 个 DNA 分 子 中 有 2 个 被 修饰 ， 而 加 
刺激 情况 下 ，3 个 DNA 分 子 中 只 有 1 个 被 修饰 . 
在 修饰 的 DNA 分子 质 量 下 降 的 同时 ， 其 百分比 也 
是 下 降 的 ,但 在 RNA 甲 基 化 中 ， 未 加 刺激 的 情况 
下 ,4 个 RNA 分 子 中 有 2 个 被 甲 基 化 ， 而 在 加 刺 
激情 况 下 ， 仅 有 1 个 RNA 分 子 ， 且 被 修饰 . 即 相 
对 于 未 加 刺激 情况 下 的 RNA 甲 基 化 ， 加 刺激 情况 


未 加 刺激 


SS 
RNA 
DNA = 
SES m 
RNA 
修饰 «v 


下 的 RNA 甲 基 化 数量 虽然 减少 了 ， 但 其 RNA HH 
基 化 百分比 却 增加 .图 3 表明 : 由 于 DNA 总 量 保 
持 不 变 ， 甲 基 化 DNA 总 量 和 其 在 总 DNA Bis 
对 量 保持 相同 的 变化 趋势 ， 由 于 RNA Anpe 
化 ， 甲 基 化 RNA 总 量 和 相对 量 的 变化 可 能 完全 不 
I. 另外 ， 图 3 中 所 示 带 有 甲 基 化 的 RNA 在 加 刺 
激 中 的 总 量 昌 然 下 降 ， 可 是 其 相对 量 却 上 升 ， 表 明 
了 一 种 过 甲 基 化 现象 ， 同 时 RNA 表达 量 下 调 了 . 
exomePeakng 工 具 包含 差异 甲 基 化 区 域 检 测 功 
能 ， 其 检测 原理 基于 超 几 何 测试 计算 两 种 情况 下 的 
峰值 富 集 显著 性 差异 ， 且 与 一 般 情 况 下 的 
ChIP-Seq 和 RNA-seq 计算 的 绝对 峰值 差异 不 同 . 


加 刺激 后 


LS 


€» 


PIE 


Fig. 3 The difference of DNA and 
RNA differential methylation 
图 3 DNA 5 RNA 差异 甲 基 化 区 别 


4 MeRIP-seq 数据 处 理 面临 的 生物 信息 
挑战 


MeRIP-seq 技术 为 RNA 表 观 遗传 学 开启 了 新 
的 研究 领域 ， 但 数据 分 析 及 处 理 方法 的 发 展 滞后 于 
实验 技术 的 进步 ， 现 有 DNA 甲 基 化 数据 分 析 及 处 
理 方法 不 能 直接 用 来 分 析 RNA 甲 基 化 数据 ， 急 需 
在 以 下 几 方 面 发 展 有 效 的 计算 方法 ， 分 析 
MeRIP-seq 高 通 量 RNA 甲 基 化 数据. 
41 甲 基 化 位 点 预测 

与 ChIP-Seq 数据 类 似 ， 基 于 MeRIP-seq 数据 
的 RNA 甲 基 化 位 点 预测 需要 消除 背景 读 段 分 布 品 
声 ， 如 GC 含量 、 映 射 能 力 、 抗 体 非特 异性 结合 、 


局 部 拷贝 数 变 异 等 因素 引起 的 实验 误差 和 测序 误 
25. ChIP-Seq 数据 的 背景 偏差 相对 较 小 ， 其 转录 
因子 或 DNA 甲 基 位 点 预测 不 需要 对 照样 本 ， 仅 通 
过 估计 邻居 基因 组 区 域 的 背景 就 可 实现 DNA 甲 基 
化 位 点 预测 路 ， 与 此 相反 ， 由 于 mRNA 片段 转录 
丰 度 变化 较 大 及 其 在 3’ 和 5’' 端 的 衰减 ，MeRIP-seq 
数据 的 背景 读 段 分 布 变化 非常 大 ， 必 须 通过 对 照样 
本 测量 背景 转录 丰 度 .因此 MeRIP-seq 数据 甲 基 化 
位 点 预测 需要 检测 相对 于 对 照样 本 转录 让 度 的 人 p 
样本 “ 富 集 峰 (peak enrichment)" . 因而 ，mRNA 
甲 基 化 位 点 检测 与 常用 的 DNA 甲 基 化 位 点 检测 有 
本 质 上 区 别 . 

另外 ， 当 RNA 甲 基 化 位 点 处 于 外 显 子 连接 区 
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附近 时 ，“ 峰 ”将 跨越 外 显 子 连接 区 ， 因 此 RNA 除 上 述 迫 切 需要 解决 的 问题 之 外 ，RNA-seq 分 
甲 基 化 位 点 预测 算法 需要 确定 跨越 2 个 或 多 个 外 显 析 中 诸如 多 种 读 段 、 转 录 水 平 上 的 测序 变化 及 比 对 
子 的 “ 峰 ” 和 否则， 当 采 用 现 有 诸如 用 于 ChIP-Seq 偏差 等 因素 ， 对 于 MeRIP-seq 甲 基 化 峰 的 检测 同样 
数据 的 MACSI 峰 检测 算法 时 ， 会 错误 检测 出 多 个 重要， 而 ChIP-Seq 数据 分 析 方法 中 不 需要 考虑 这 
IO “g”, 些 因素 ， 另 外， 发 展 一 些 有 效 的 方法 将 RNA 甲 基 

虽然 exomePeaktg 能 够 实现 跨越 外 显 子 连 接 的 化 数据 与 其 他 组 学 数据 进行 整合 ， 深 入 研究 RNA 
RNA 甲 基 化 位 点 检测 ， 但 exomePeak 并 没有 完全 1 基 化 机 理 及 其 生物 学 功能 也 是 生物 信息 学 今后 的 
解决 上 述 MeRIP-seq 所 存 问 题 . 由 于 exomePeak 一 个 重要 研究 方向 ， 因 而 迫切 需要 发 展 新 的 针对 
通过 泊 松 模型 计算 读 段 数 目 ， 没 有 考虑 生物 学 差 MeRIP-seq 数据 的 分 析 方 法 和 计算 工具 解决 上 述 问 
异 ， 会 遗漏 过 离散 的 读 段 . 因此 ， 需 要 发 展 新 的 题 ， 促 进 表 观 转录 组 学 这 一 新 兴 领 域 的 快速 发 展 . 
RNA 甲 基 化 位 点 检测 算法 ， 以 更 加 准确 地 进行 
RNA 甲 基 化 位 点 检测 | 5 总 结 与 展望 


42 ”基因 剪接 异 构 体 层 
众所周知 ， 高 等 真 核 生物 中 ， 通 过 


RE mRNA 甲 基 化 预测 


可 变性 剪接 


相同 的 基因 会 被 转录 成 不 同 的 异 构 体 (isoform) 四 ， 


在 基因 剪接 异 构 体 上 也 会 发 生 RNA 甲 基 化 ， 当 IP 


样本 中 的 一 个 峰 处 于 异 构 体 


< 享 外 显 子 时 ， 进 行 


RNA 甲 基 化 位 点 检测 前 ， 需 对 峰 读 段 
运算 ， 确 定 每 个 异 构 体 的 相对 贡献 . 
确定 对 照样 本 中 异 构 体 表达 的 数量 及 它 
BE. 总 之 ， 如 何 应 
异 构 体 甲 基 化 位 点 ， 是 MeRIP-seq 数据 
迫切 需要 解决 的 挑战 性 问题 . 


进行 去 卷 积 


另外 ， 还 需要 


们 的 相应 丰 


] RNA-seq 对 照 数 据 预 测 不 同 


分 析 中 一 个 


43 ”基因 及 其 剪接 异 构 体 层次 上 的 mRNA 差异 甲 


基 化 预测 


不 同 实验 条 件 下 ，ChIP-Seq 数据 的 背景 (基因 
组 DNA) 通 常 非常 相似 ， 而 由 于 mRNA 的 差异 表 


达 ，MeRIP-seq 数据 的 背景 (mRNA 转录 丰 度 ) 差 异 
较 大 .因而 ， 现 有 适合 于 ChIP-Seq 数据 的 差异 分 
来 比较 两 个 中 样 
究 包括 相应 RNA-seq 对 照样 


析 算 法 外 ， 不 能 
EC. 而 需要 在 
计算 框架 ， 比 较 富 集 峰 的 相对 数量 ， 另 


直接 


本 中 的 读 
本 的 新 
外 ， 针 对 蘑 


FERRE, 究 有 效 的 算法 检 
基 化 . 


Ti ee 


测 其 差异 


44 基于 分 子 网 络 的 RNA 甲 基 化 功能 注释 


RNA 甲 基 化 可 通过 调控 基因 表达 


而 实施 重要 


生物 学 功能 ， 但 RNA 甲 基 化 如 何 调控 


基因 、 究竟 


有 哪些 生物 学 功能 ， 目 前 缺 3 


深入 研究 . 


我 们 可 通 


过 整合 其 他 组 学 数据 、 构 建 与 RNA F 
分 子 网 络 ， 采 用 相关 的 分 子 动态 
wsi, WEE RNA 


YA 


基 化 相关 的 
BEANS 


发 挥 的 生物 学 功能 ， We ea 
如 何 构建 RNA 甲 基 化 分 子 网 络 及 如 何 挖掘 分 析 也 


是 目前 急需 解决 的 挑战 性 问题 . 


RNA 甲 基 化 在 调控 基因 表达 、 
辑 、RNA 稳定 性 、 控 制 mRNA 的 寿 
面 可 能 扮演 重要 角色 ， 其 
差异 表达 研究 ， 有 助 于 进一步 揭示 细胞 发 育 、 疾 病 
等 生物 学 现象 ， 帮 助 药物 研发 者 设计 出 能 够 调节 基 
因 表达 、 杀 死 或 控制 疾病 细胞 的 小 分 子 ， 本文 从 
MeRIP-seq 高 通 量 测序 技术 出 发 ， 首 先 介绍 此 技术 
测序 原理 ， 在 技术 特征 和 数据 处 理 流 程 方面 与 
MeDIP-seq、ChIP-seq 2 种 高 通 量 测序 技术 进行 了 
对 比 ， 然 后 对 MeRIP-seq 高 通 量 测 序数 据 的 读 段 定 
位 、 峰 检测 、 差 异 甲 基 化 检测 及 剪接 异 构 体 等 相关 
处 理 方法 进行 归纳 总 结 ， 最 后 ， 对 RNA 甲 基 化 位 
点 检测 、 剪 接 异 构 体 层次 上 的 甲 基 化 位 点 检测 、 
RNA 差异 甲 基 化 分 析 及 基于 分 子 网 络 的 RNA 甲 基 
化 功能 注释 所 面临 的 生物 信息 学 挑战 问题 进行 了 展 
TH. 希望 本 文 能 够 对 正在 或 即将 采用 MeRIP-seq X 
验 进 行 科 学 研究 的 学 者 和 MeRIP-seq 高 通 量 数据 处 
理 研究 者 提供 参考 . 
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Abstract With the rapid development of high-throughput sequencing technologies, the emerging of methylated 
RNA immunoprecipitation sequencing (MeRIP-seq) technology makes it possible to detect RNA epigenetic 
modifications in a large scale, which allows transcriptome-wide profiling of RNA methylation. Mining the patterns 
of global mRNA methylation from these MeRIP-seq data can help reveal the potential functional roles of these 
mRNA methylations in regulating gene expression, splicing, RNA editing and RNA stability, effectively guiding 
the therapeutic intervention of cancer. Here, the principle of MeRIP-seq sequencing was first introduced. Then, the 
recent progress of the processing and analysis of MeRIP-seq data were comprehensively discussed. In the end, the 


computational problems and challenges faced in the process of MeRIP-seq data processing were also summarized. 
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